Tema 7: Macrodepuración 


1.- Funciones y Características 


La macrodepuración tiene como objetivo una detección y "corrección" selectiva de los 
errores. Básicamente, la macrodepuración supone una investigación a nivel agregado 
de la encuesta. Analiza, como veremos, bien los datos a nivel agregado o las 
distribuciones de las variables de la encuesta. 


Al hablar de macrodepuración nos tenemos que referir necesariamente a L. Granquist, 
de Statistics Sweden. A el debemos el termino macrodepuración y a sus escritos 
haremos continua referencia al presentar los distintos procedimientos de 
macrodepuración. 


En Granquist (1984) se recoge que “la esencia de la macro-depuración es estudiar los 
datos para ciertos grupos de variables y cuestionarios” con el objeto de: 
1. Identificar áreas de problemas. 
2. Estimar y documentar los mismos. 
3. Tomar medidas para tratar los errores sistemáticos no anticipados, si es posible, 
O aplicar tal conocimiento para futuras encuestas. 


El objetivo de la macrodepuración es agilizar las tareas de la detección-corrección de 
errores en los datos de una encuesta sin detrimento de la calidad del proceso. 
Destacamos a continuación las características más relevantes de la macrodepuración. 


e  Esun proceso selectivo de detección de errores. No todos los cuestionarios o 
todas las variables son objeto de investigación por la macrodepuración. Solo 
aquellos que son influyentes según el criterio que defina el experto. En 
macrodepuración se ignoran aquellos errores en los datos cuya magnitud no es 
significativa o que se cancelan en el proceso de agregación. 


e Es una filosofía de depuración y no un conjunto de procedimientos 
cerrado. En la medida en que los métodos de macro-depuración obtienen su 
información directamente de los datos que tratan de depurar, una planificación 
eficiente de los mismos es decisiva. Es decir, el experto debe hacer hipótesis 
sobre los posibles tipos de error en sus datos, evaluar su importancia y, en 
función de ellos, diseñar los procedimientos de análisis mas adecuados. 


e Con alguna excepción, no define regla de incompatibilidad a priori. Es 
decir, en macro-depuración se trabaja directamente con los datos que se 
depuran, se estima su peso y se controla su incidencia. En la planificación del 
proceso de macrodepuración debe tenerse en cuenta los estratos de la encuesta, 
observaciones sospechosas, el índice de no respuesta, etc. 


e Se concibe generalmente como un proceso interactivo que realizan 
directamente los expertos de la encuesta. Con las técnicas actuales de 
depuración interactiva, los procedimientos de macrodepuración seleccionan los 
registros con valores sospechosos que se corrigen por pantalla. El proceso de 


selección-corrección se repite hasta que el experto considera que la encuesta 
esta libre de errores importantes. 


e Aunque no exclusivamente, los métodos actualmente implementados trabajan 
con datos cuantitativos y se destinan a la detección de valores outliers. 


e Contribuye a mejorar la calidad de la encuesta. Los inspiradores de los 
procedimientos de macrodepuración aseveran que en la medida que la 
depuración se concentra en los errores importantes, se garantiza un mayor 
interés y cuidado en la corrección de tales errores, lo que redunda en una mayor 
calidad del proceso. 


Los procedimientos más usuales de macrodepuración y de la base estadística que los 
sustenta, son descritos en los apartados siguientes. 


2.- Análisis de Outliers 


Aunque no existe una definición genérica de outlier, se puede decir que un outlier es un 
valor anómalo respecto de la serie de datos de que se trate. Esta consideración de 
anomalía se traduce en el caso univariante en aquellos valores cuya distancia a su 
respectivo cuartil (Q, o Q3) supera en 1,5 veces la distancia intercuartílica. 


En el caso multivariante se suelen proponer medidas de distancia estadística (p.e. la 
distancia de Mahalanobis), de forma que tendrán consideración de outliers, aquellos 
valores que superen cierto umbral determinado por la distribución de los datos. Por 
tanto, conocida la distribución de la función distancia, podremos obtener cierto valor de 
probabilidad sobre esta distribución y, sobre éste, el criterio de anomalía para el dato. 


Más precisamente, la distancia de Mahalanobis se utiliza con frecuencia en Estadística 
para medir la distancia que existe entre una observación-1 y el centro de la distribución 
multivariante. Está definida como: 


A? =[x:- 4) EY bu- ul 


y, como decimos, se puede demostrar que A; tiene distribución y? con q grados de 
libertad (en el caso de una distribución Normal Multivariante de dimensión q). 


Little £ Smith utilizan la distancia de Mahalanobis utilizando como estimación del 
vector de medias y de la matriz de covarianzas las estimaciones obtenidas con el 
algoritmo ER, y considerando solamente los campos con dato (Xa4) en la observación-1 
en estudio. La medida de distancia que utilizan para la detección de outliers es entonces: 


Di? = [Xia - Mia Y [Ej4%- pia] 


En determinadas condiciones, Little £ Smith conjeturan que D¡? se distribuye como una 
xo con pi grados de libertad (p; es el numero de campos con dato en la observación-i). 
Valores altos de D/? sugieren una contaminación en los valores de Xy. Además, estos 
autores sugieren la posibilidad de detección gráfica de los valores outliers usando los 
gráficos probabilísticos normales (Normal Plot). Para ello se requiere transformar los 


valores de D? en una Normal(0,1): Z;; donde Z;¡ es la transformación, de Wilson- 
Hilferty: 


dez [0/1 p)*-1+(Q/9p,)] 
E PAT 
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2.1.- La localización de valores outliers en registros outliers 


Una vez que el procedimiento de detección selecciona los registros con un valor de Z; > 
Zy se considera a tales registros como atípicos o outliers. El valor de Zo depende del 
porcentaje de registros que se desea rechazar. A los registros así seleccionados se les 
somete a un procedimiento iterativo que intenta ordenar los campos del registro de 
acuerdo con la disminución marginal de la distancia D;?. El procedimiento elimina uno 
a uno cada campo del registro y ordena de mayor a menor el valor de D;”; elige el 
campo que contribuye en mayor medida a Df e reinicia el proceso para detectar el 
segundo y siguientes. El proceso finaliza cuando el valor de Z¡ es menor al Zo elegido. 


El procedimiento es del tipo "Backward-elimination”. Opera de la forma siguiente para 
cada registro considerado outlier: 


Paso. 1.- Calcula para cada campo k con dato en el registro la distancia D¡? después de 
eliminar el valor de k: (D;"(k)) 


Paso.2.- Clasifica de mayor a menor los D¡(k) y selecciona el campo j; con menor 
valor. El valor del campo j¡ es el valor con mayor influencia en la observación-1. 


Paso.3-4.- Repite Paso 1 y Paso 2 después de eliminar definitivamente el valor j;. El 
procedimiento continua buscando los j> jz3 y siguientes valores mas influyente y hasta 
que el valor de Z; correspondiente a la distancia D¡, toma un valor menor o igual a Zo. 
Es decir hasta que Z; (J1 J2 ..) < Zo 


2.2.- Estimación de Campos a Imputar 


Previamente a continuar con el proceso de Imputación, el analista debe cuestionarse si 
se mantiene los supuestos: 

1. Los supuestos sobre la distribución son correctos. 

2. Los datos borrados no dependen del verdadero valor de las variables 
borradas. 

3. El proceso de localización ha identificado los campos con error y los campos 
no "borrados" no tienen errores de contenido (la validez de tales supuestos se 
queda, lógicamente, en el terreno de las conjeturas, dado que los verdaderos 
valores de las variables no se conocen. Es importante destacar, sin embargo, 
la necesidad de tener presente los supuestos sobre los que trabajamos y 
modificar los procesos en caso de serias dudas de su incumplimiento) 


Si no se rechazan los supuestos, continuamos con el proceso de Imputación. 


Aquí m indica campo a imputar porque es campo con falta de respuesta o se ha borrado 


en el proceso de localización de errores. El valor imputado a un campo Xim de la 
observación-1 es el valor esperado condicionado a los valores de los campos con dato en 
la observación-1 y a la estimación robusta del vector de medias y la matriz de 
covarianzas. Es decir: 


T To T)-1 T 
Xim = Min? + [Limia Y iaa PY Exa = pia] 


En Little $ Smith se hace notar que la imputación de valores esperados es una 
estimación eficiente de los valores medios de la distribución univariante pero que 
distorsiona la propia distribución de la variable. Es decir, se crea una concentración de 
los valores de la variable en su valor medio y una reducción artificial de su varianza. 
LézS también sugieren la posibilidad de corregir tal distorsión añadiendo perturbaciones 
a las predicciones. 


En cuanto a las transformaciones, diremos que es muy habitual que en las etapas 
iniciales del proceso se transformen los datos para acercarlos a una distribución normal 
(transformación logarítmica o Box Cox). De ser esto así, en esta etapa debe deshacerse 
la transformación para devolver los datos a su escala original. 


3.- Los Procedimientos de Macrodepuración 


Las oficinas de estadística de Suecia y Canadá han analizado en sendos estudios los 
resultados de los procesos de macrodepuración y su comparación con los procesos de 
microdepuración realizados en paralelo. Ver Granquist (1987, 1988, 1990), Hoglund- 
Davila (1989) y Bilocq $ Berthelot (1989) entre otros. 


De Granquist, Hidiroglou-Berthelot (1986) y Hoglund-Davila tomamos las referencias 
para describir las características de los métodos implementados más comunes. Estos 
son: 


3.1. El Método "Top-Down"' 


El método "top-down" ha sido programado en SAS en la oficina de Suecia. Granquist 
(1987) describe y evalúa la aplicación del método en una encuesta de datos cuantitativos 
y de periodicidad mensual. El método permite, en modo interactivo, seleccionar y 
ordenar de mayor a menor los 15 valores extremos de una variable o función de 
variables indicada. Así, para dicha variable o función el experto puede solicitar: 

- Los 15 mayores cambios positivos. 

- Los 15 mayores cambios negativos. 

- Las 15 mayores contribuciones al agregado que se analiza. 


Los resultados se presentan agregados por el total muestras o por subgrupos (estratos). 
La información que el experto recibe en pantalla es: 


* IDENTIFICACION del cuestionario 
* VALOR de la variable 

* Su FACTOR DE ELEVACION 

* VALOR ELEVADO 


* EL TOTAL 


Con esta información en pantalla, el responsable de la depuración puede visualizar los 
datos completos de un cuestionario, localizar los errores y, si los hay, corregirlos y ver 
inmediatamente como se modifica la lista de los 15 registros en pantalla. El 
procedimiento continúa hasta que el depurador considera que las correcciones no 
modifican sustancialmente los totales. 


Este método tiene la ventaja, sobre otros procedimientos de detección de outliers, de 
que no exige definir de antemano el porcentaje de outliers a analizar. El método permite 
interrumpir el proceso cuando se observa que las correcciones no tienen un impacto 
relevante en las estimaciones del total. 


La utilidad del procedimiento se fundamenta en la implementación de un proceso 
interactivo eficiente (rápido); esto, que para encuesta con un gran volumen de 
cuestionarios, puede ser tarea difícil. El INE (Instituto Nacional de Estadística) ha 
desarrollado un procedimiento de macro-depuración que recoge la filosofía del método 
"top-down" pero que se ejecuta en batch. 


3.2.- La Desagregación en Cascada de Tablas de Series 


El propio nombre "desagregación en cascada" sugiere las funciones del método. El 
método en cascada es un procedimiento de localización de errores en datos agregados. 
Para ello, el depurador, a partir de las tablas de resultados agregados y después de 
comparar estos resultados con los de periodos anteriores, puede obtener las mismas 
tablas pero con niveles mayores de desagregación. Cuando el depurador localiza la 
tabla con los errores, puede listar las identificaciones de los registros y los valores de las 
variables que componen los agregados erróneos. 


El procedimiento esta implementado con el lenguaje de MACRO-SAS y sus 
características más relevantes son: 
1. El tratamiento es en batch (lo que evita restricciones de máquina, de volumen y 
de almacenamiento de los datos). 
2. Admite cualquier número y cualquier tipo de consultas. 
3. El tratamiento es secuencial. 
4. Permite generar series y circular funciones estadísticas a cualquier nivel de 
desagregación. 
5. La salida se facilita en todo tipo de soporte; ello facilita, entre otras cosas, el 
trasvase de datos entre ordenadores Main-frame/PCs. 
6. Es un procedimiento general; es decir, aplicable a todas las encuestas. 
Finalmente, 
7. No exige conocimiento informático para su uso. 


Para un análisis mas detallado del procedimiento véase Pons Ordinas (1989). 


3.3.- El Método de Agregación 


El método también ha sido implementado como un prototipo de macrodepuración en la 
Oficina de Estadística de Suecia, y se presenta en el documento de Granquist (1988). El 
método utiliza su programa de depuración interactiva, EDIT-78. El programa EDI'T-78 


detecta los registros que fallan cualquiera de los edits de consistencia que el experto ha 
definido a priori, lista por pantalla la identificación del registro y los edits fallados y 
permite la corrección de los errores. El proceso se repite con el registro modificado 
hasta que el sistema lo acepta o el depurador impone su aceptación. 


El método utiliza el sistema EDIT-78 dos veces consecutivas. Primero trabaja con los 
datos agregados y a continuación con los registros que intervinieron en los agregados 
señalados como sospechosos en la primera ejecución. En ambas etapas los datos están 
elevados. El método utiliza dos tipos de edits: 

- Edits de ratios. 

- Edits de diferencias. 


Los límites de los edits son calculados por los expertos en base a un análisis previo de 
los datos y de sus distribuciones. El método rechaza los agregados o los registros si son 
fallados ambos edits (el de ratios y el de diferencias). 


Granquist (1988) facilita resultados comparativos del método tradicional de depuración 
y del método agregado para la estadística de prueba. De acuerdo con el estudio, el 
trabajo de verificación de errores se redujo en un 50% sin ningún descenso en la 
calidad. 


3.4.- El Método de Hidiroglou Y Berthelot (H«B) 


Hidiroglou-Bertholot (1986) proponen un nuevo procedimiento para calcular los límites 
de aceptación del ratio entre valores de una variable en dos periodos consecutivos y su 
empleo en la detección de outliers en encuestas económicas periódicas. 


El método propuesto por HézB se utiliza hoy profusamente: no solamente se aplica para 
detectar outliers en series de tiempo (en este contexto, H8B define los valores de una 
variable como outliers si su tendencia con respecto al periodo anterior difiere 
significativamente de la tendencia general de los valores de dicha variable en el resto de 
observaciones del mismo estrato muestral) sino que se aplica para detectar outliers entre 
relaciones de variables del mismo cuestionario. Los límites que se obtienen con el 
método de HB son los límites de los que denominamos edits estadísticos. 
Resumimos a continuación el método HéB de obtención de los edits estadísticos. 


Denotamos por x; y X; los valores de las variables en análisis (obsérvese que x; puede ser 
xi en casos del análisis de encuestas periódicas o series). Calculamos t;¡=X¡/ xj y 
max; = max (x; , xj). La desigualdad de Chebychev, permite controlar el porcentaje de 
observaciones que caen fuera de un intervalo del tipo 


[r—k-s,,1+k-s,] 


(siendo k una constante, y s, la desviación típica). Sin embargo, T y s, son estadísticos 
muy poco robustos a la existencia de outliers. Existen límites menos vulnerables a 
outliers que son los siguientes: 


[r, —k-r 


u19 Ty KT] 


donde, rm es el valor mediano de los ratios ri, y rg1 y Tg3 son los valores del primer y 
tercer cuartil respectivamente. 


H8B apuntan un problema a este tipo de límites para detectar outliers, cual es que la 
variabilidad de los valores de r; puede ser, y lo es frecuentemente, mayor para unidades 
muestrales pequeñas que para unidades muestrales grandes. Este fenómeno produce un 
efecto de enmascaramiento por tamaño de los valores de r; correspondientes a unidades 
grandes. 


Problemas de asimetría pueden por otra parte dificultar el detección de outliers en la 
cola izquierda de la distribución. Para evitar estos problemas, HézB proponen trasformar 
la variable r; como se indicará a continuación y recalcular los límites. 


La primera transformación de r; trata de asegurar que los outliers se detectan bien en 
ambas colas de la distribución. 


r, 
eE 
1-—=, si r, <Y, 
S; = ' 
a 
Bl, si r, 21, 


1 


El efecto enmascaramiento por tamaño continúa presente en s; HéB proponen una 
segunda transformación, que es una forma de cambio de escala con la cual se pondera la 
influencia de las unidades mayores; es decir, esta transformación intenta conservar en 
alguna medida el tamaño de la unidad muestral y dar más importancia a variaciones 
pequeñas de unidades grandes que variaciones grandes de unidades pequeñas. Veamos 
como se consigue: 

e¡= S¡. max; u 


donde u es una constante que H4B sitúan entre 0-1. Finalmente, los límites para los 
edits estadísticos HéZB se calculan como: 

e Límite inferior = €m — d> 

e Límite superior = d3 — €m 


siendo e, el valor mediana de los valores ej, 
d> =k - max (€m- €q1, A: €m) 
d3=k - max (843 — €m, A: €m) 


y A, k, sendas constantes en el sistema. 


El problema del método de H4zB es la existencia de tres constantes que el experto debe 
estimar y facilitar como parámetros al sistema. Las constantes son A, u, k. La eficacia 
del método depende en gran medida de estos valores. 


Hoglund-Davila (1989) presenta un estudio con los resultados del método para distintos 
valores de u y de k (toma como fijo A = 0.05, valor que H%B (1986) sugieren). 
Considera buenos valores de u = 0.4 ó u = 0.5 y valores de k comprendidos entre 15 y 
43. 


Concretamente, los valores que Davila elige son u = 0.4; k = 41. Junto a los resultados 
del método HX%£B, Davila hace una evaluación del mismo. El método, dice, es difícil de 
entender pero satisface el objetivo de detectar las observaciones que tienen una 
variabilidad relativamente alta. Otros puntos que destaca son: 
e FEl método puede usarse una vez para identificar todas las observaciones 
sospechosas. 
e No necesita información adicional a los datos. 
e Los parámetros u y k permiten controlar el número de observaciones a analizar 
y, 
e No se pierde tiempo analizando observaciones de menor importancia. 


Para terminar con el apartado de depuración, hacemos una breve reflexión sobre los dos 
tipos de depuración considerados. Ya dijimos que ambos métodos de depuración no son 
necesariamente excluyentes, sino complementarios; pero los procedimientos 
tradicionales de la microdepuracion son cada vez mas cuestionados. 


En la sección anterior referenciabamos diversos documentos de la Oficina de Estadística 
de Suecia que evalúan los nuevos método de macrodepuración que han sustituido a los 
métodos tradicionales de microdepuracion. Sin embargo, no estamos proponiendo que 
la macrodepuración es el método de depuración. Las características de la encuesta que 
se depura tienen mucho que decir sobre la viabilidad, o la conveniencia de un método u 
otro. Por ello, terminamos este apartado destacando cuales, a nuestro parecer, deben ser 
los aspectos a considerar a la hora de diseñar una estrategia Óptima de depuración. 


